РосРоскошь

Исходный код на GitHub EgorLakomkin/clearspending

Цель данного проекта: автоматически находить закупки дорогих машин стоимостью от 1 000 000 р.

Актуальность проблемы:

  1. Детали гос-закупки (тип автомобиля и количество) находятся в документации, анализировать которую затратно для человека. Так необходимо не путать закупки автомобилей скорой помощи, 10 автомобилей Lada Kalina и Toyota Land Cruiser. Согласно проведенному анализу за 2013 г., каждый день появляются заказы автомобилей категории Люкс, оплачиваемые из средств бюджета.

Выполненные задачи проекта:

  1. Поиск контрактов по закупка легковых автомобилей через API ГосЗатраты

  2. Поиск документации по заключенным контрактам через сайт zakupki.gov.ru

  3. Создание статистической модели анализа текстов, способной выделять названия дорогих автомобилей, учитывающей возможные ошибки в написании, русские названия и вариативность лексики названий моделей автомобилей

  4. Анализ проектной документации разных форматов(PDF, Ms Word, Ms Excel, архивы)

Результат работы - автоматический анализ закупок для которых детали заказа скрыты в документации и не отображаются на странице заказа.

Развитие проекта:

Модель можно масштабировать на поиск именных сущностей из других предметных областей

Использованные библиотеки:

  1. Apache Tika
  2. SeqLearn